rl

G社生图下Winter,直接美成精修了‼️

今日aespa成员Winter在首尔为RL“假日体验”开幕派对拍摄宣传照,一身撞色拼接格纹+长裤+复古绿色包包,G社生图直接变站姐,怼脸拍也美到令人惊叹!不得不夸,冬妹的皮肤状态也太好了,是白里透粉的小公举呀!

派对 首尔 aespa rl 社生 2025-10-31 22:55  2

潞晨科技携手昇腾联合强化微调优化

在人工智能技术快速演进的浪潮中,大模型正从数据匹配迈向具备逻辑推理的“深度思考”阶段。这一能力让AI能够理解复杂问题,完成多步推理,并在数学、代码等多个领域展现巨大潜能。日前,潞晨科技携手昇腾团队,联合推出强化微调技术的昇腾优化方案,为深度思考模型的落地注入强

模型 推理 科技 rl 解耦 2025-10-31 20:10  2

LLM比我们想象的更聪明

我们可以让标准的、非前沿的大型语言模型(LLM)比前沿模型,也就是所谓的“推理模型”更好,而无需任何额外的训练。这是否意味着过去一年的所有进展……都是多余的?

模型 推理 聪明 llm rl 2025-10-30 10:06  2

AI如何教无人机学会自主着陆?深度强化学习的中国实践与全球前沿

想象一下,你正站在喧闹的都市街头,一架无人机从天而降,精准地将包裹稳稳落在你手中的平台上。它没有GPS的粗糙指引,也没有预设的飞行路径,只是凭借“试错”的本能,学会了如何在风中保持平衡、如何判断高度、如何避免一头栽进水泥地。这不是科幻电影的桥段,而是深度强化学

无人机 自主 dji rl drl 2025-10-30 07:00  2

DeepMind再登Nature:AI Agent造出了最强RL算法

人工智能(AI)的主要目标之一,是设计出能够像人类一样在复杂环境中自主预测、行动、最终实现目标的智能体(Agent)。智能体的训练离不开强化学习(RL),相关研究也已经持续了几十年,但让智能体自主开发高效的 RL 算法的目标始终难以实现。

算法 agent aiagent rl rl算法 2025-10-27 22:08  2

DeepMind再登Nature:AI Agent造出了最强RL算法!

人工智能(AI)的主要目标之一,是设计出能够像人类一样在复杂环境中自主预测、行动、最终实现目标的智能体(Agent)。智能体的训练离不开强化学习(RL),相关研究也已经持续了几十年,但让智能体自主开发高效的 RL 算法的目标始终难以实现。

算法 agent aiagent rl rl算法 2025-10-27 20:16  2